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L'analyse Numerique est une speciality recente des mathematiques, 
elle s'est developpee avec I'apparition des ordinateurs. 
Son objet essentiel est d'ecrire les programmes permettant d'effectuer 
les operations necessaires pour resoudre numeriquement un 
probleme donne. 

Les methodes ont un "cout", lie d'une part au temps de calcul, ie au 
nombre d'operations elementaires (additions, soustractions, 
multiplications et divisions) a faire, et d'autre part a I'espace memoire 
necessaire pour stocker les donnees et les resultats. 



L'ordinateur ne fait pas de calculs exacts (a cause du mode de 
representation des nombres). Ceci constitue un inconvenient car cela 
provoque des erreurs d'arrondis et de troncature. 
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Introduction Analyse numerique 



Pour un grand nombre de problemes, le seul moyen de calculer la 
solution, si elle existe, est de I'approcher numeriquement. 



J 



Un algorithme c'est 



9 une demarche pour obtenir une solution (impliquant des 
simplifications, ajout/retrait d'hypotheses sur le modele, etc) 

9 ET I'implementation sur ordinateur de cette demarche. 



Objectifs de I'analyse numerique 



proposer et developper des algorithmes (methodes 
d'approximation) pour calculer une solution approchee, 

controler les diverses sources d'erreurs, propres a I'approximation 
numerique, 

evaluer la pertinence et la valeur de differents algorithmes 
(estimer leurs performances) pouvant etre utilises pour resoudre 
le merme probleme afin de selectionner les meilleurs . 
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Quelques problemes typiques 



9 Interpolation - Extrapolation. 

9 Resolution de systemes lineaires. 

9 Resolution de systemes non-lineaires. 

• Integration et differentiation numerique. 

9 Resolution de systemes d'equations differentielles. 

9 Resolution de systemes d'EDR 

9 Analyse statistique. 

9 Transformee de Fourier. 

9 Diagonalisation. 

9 Calcul de valeurs propres. item Calcul de vecteurs propres. 
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Langages de programmation 



• Fortran : Ideal pour le calcul intensif. 
» C : le plus proche du "hardware". 

• IDL : Courant en astrophysique. 

• Java : Independantde la machine (portabilite). 
9 Shell : Scripting de base. 

9 Autre : C++, python, Mathematica, etc 

A choisir en fonction de la tache a realiser, et non en fonction des 
habitudes. 
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Introduction Sources d'erreurs 



Qu'est-ce qu'un bon algorithme ? 



Afin de choisir le meilleur algorithme possible, il faut pouvoir les 
comparer. Un bon algorithme est : 

» le moins couteux possible en place memoire, 

• le moins couteux possible en temps de calcul : c'est-a-dire qui 
minimise le nombre d'operations necessaires. C'est ce qu'on 
appelle un probleme de complexite. 

• le plus stable possible, ie le moins sensible aux erreurs d'arrondi 
que nous venons d'evoquer, 

• le plus precis possible : la solution approchee obtenue est-elle 
proche ou loin de la solution exacte. C'est ce qu'on appelle 
I'estimation d'erreur. 
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Introduction Sources d'erreurs 



Exemple : Calcul du determinant d'une matrice N 



La methode mathematique de Cramer necessite N x N\ operations 
elementaires (A/! additions et (N - 1 ) x N\ multiplications). 
Prenons N = 50, sachantque 50 x 50! = 15.10 55 , et qu'un ordinateur 
peut faire environ 20 GFIops (ie 20 milliards d'operations a la 
seconde), il faudrait quand meme environ 1 50 ans pour faire ce calcul. 
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Introduction Sources d'erreurs 



Les quatre principales sources d'erreurs 



9 erreurs de modelisation, 

9 erreurs sur les donnees, 

• erreurs dues a la representation des nombres sur ordinateur, 

• erreurs de troncature ou de discretisation. 



Exemple 1 



Soit la suite definie par : x n+1 = 4x n (1 - x n ) On peut la programmer de 
deux fagons : 

• x-i = 4 * x-\ * (1.0 - *i) ; 

a x 2 = 4 * x 2 - 4 * x 2 * x 2 ; 

"Normalement", on doittrouver la meme chose "mathematiquement", 
mais les operations ne sont pas faites dans le meme ordre en 
machine. 
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Introduction Sources d'erreurs 



Exemple 2 



Soit a resoudre I'equation : x 2 + 2bx - 1 = Ou b peut etre "tres 
grand". On demande de calculer la solution positive : 
x+ = —b + Vb 2 + 1 Comment faut-il la programmer ? La aussi, deux 
possibilites : 

9 x = -b + V£>* b+ 1.0; 



» x 



1.0 



Equivalentes mathematiquement. 
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Introduction Sources d'erreurs 



Exemple 3 



Soit a calculer, pour n fixe : S n = 52"=i 7 " y a ( au moins) deux fagons 
d'ecrire la boucle : 

» for (i=1 ; k=n ; i++) x = x + 1 .0/i ; 

• for (i=n ; i>=1 ; i-) x = x + 1 .0/i ; 

Sans oublier d'initialiser x a evidemment. Ici aussi les 
mathematiques sont equivalentes. 
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Introduction Erreurs de modelisation 



La modelisation c'est 



9 L'identification des differents facteurs agissant dans le phenomene 
(physique, biologique, economique , etc) a I'etude. 

9 L'identification et representation mathematique des relations entre 
les facteurs : ecriture des "formules/equations" representants ces 
relations. 



Les erreurs de modelisation peuvent provenir de 



• I'etape de "mathematisation" i.e. simplification ou mauvaise 
description de la relation entre differents facteurs lors de la mise 
en equations 

9 pour reduire le degre de complexite d'un phenomeme physique, 
on est souvent amene a simplifier le systeme d'equations, ce qui 
revient a negliger certaines composantes de la realite physique. 

Solution : Un choix convenable du modele mathematique. 
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Introduction Erreurs sur les donnees 



Les erreurs sur les donnees proviennent generalement de 



a I'imprecision des mesures physiques qui sont utilisees dans 
I'algorithme. 

Solution : Ces erreurs peuvent generalement etre reduites en 
ameliorant la precision des mesures. 



Remarque 



II est possible d'etudier I'influence de ces erreurs sur le resultat final, 
par exemple a I'aide de la notion de conditionnement (sensibilite aux 
erreurs). 



Dans la suite de ce cours, nous ne nous interesserons pas aux erreurs 
de modelisation ni a celles sur les donnees. 



Maths-Info (ENSAIV 



28 septembre 201 1 13/39 



Definition 1 



Soit x un nombre reel et x une approximation de x. 
L'erreur absolue : Ax = |x - x| (mesure de I'erreur) 

L'erreur relative : — — (importance de l'erreur). 



Definition 2 



Si m est le plus petit entier signe tel que Ax < 0.5 x 10 m alors le 
chiffre correspondant a la m ieme puissance de 1 (et tous ceux a sa 
gauche jusqu'au dernier non-nul) sont dit significatifs. 



Exemple 



Si x = 7retx = 3.1428, d'ou Ax = 0.12 10 -2 < 0.5 10" 2 . Done le 
chiffre des centiemes est significatif, soit le chiffre 4 dans 3.1428 et on 
a en tout 3 chiffres significatifs (3.14). 
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9 L'ordinateurdoit representer les nombres dans un systeme qui lui 
permette d'executer les operations souhaitees efficacement. 

9 La structure interne des ordinateurs s'appuie generalement sur le 
systeme binaire : representation des nombres en base 2. 

9 Les calculs sont generalement effectues en base 2, et les 
interactions avec I'usager affiches en base 10. 



Decimal 


+± binaire 


(100) 10 = 


1 x 10 2 + x 10 1 +0x 10° 




1 x64 + 1 x 32 + 0x16 + 0x8 + 1 x4 + 0x2 + 0x1 




1 x2 6 + 1 x2 5 + 0x2 4 + 0x2 3 + 1 x2 2 + 0x2 1 +0x2° 




(1100100) 2 


(0.3) 10 = 


(0.01 01 1 00 01 1 00 ...) 2 <- fraction periodique en binaire ! 
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Sur un ordinateur I'unite d'information de base ou bit prend la valeur 
ou 1 . On regroupe les bits en mots de longueur variable (8, 1 6, 32 ou 
64 sont les plus courants). Les nombres reels sont represents a I'aide 
de ces mots. La capacite memoire est finie par construction. II est 
done necessaire de representer les nombres reels sous forme 
approchee. Cela entrame un certain nombre d'erreurs. 



Le fait d'utiliser un nombre limite de bits pour representer un nombre 

reel a des consequences importantes. Pour representer les nombres 

reels on recourt generalement a 

La troncature a N chiffres : on retranche les chiffres a partir de la 

position N + 1 . 

Larrondi a N chiffres : on ajoute 5 au (N + i) ieme chiffre de la 

mantisse avant d'effectuer la troncature. 
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epresentation des nombres sur ordinateur Les nombres naturels 



Nombres Entiers 



La premiere codification des nombres consiste a les coder de fagon 
naturelle sur les mots connus au niveau de la machine, 8, 16, 32 ou 64 
bits la limitation etant la valeur maximale que Ton peut stocker. On 
parle alors de representation en champs fixe. 



Par nombre naturel, on entend les nombres entiers, positifs ou nuls 

• 1 octet pourra coder un nombre de (0000 0000) 2 ->■ (1 1 1 1 1 1 1 1 ) 2 
(0 -> 255) 

» 1 mot de 1 6 bits : de -> 2 16 - 1 (65535) 

9 1 mot de 32 bits : de ->■ 2 32 - 1 (4 294 967 295) 

La limite reste toujours la taille du mot manipule 
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La representation des nombres negatifs est realise grace au bit de 
poids fort "bit de gauche". On parle egalement d'entiers signes. 

» Nombres positifs ->• le bit de poids fort est 

9 Nombres negatifs ->• le bit de poids fort est 1 

Les autres bits contiennent la valeur absolue du nombre 



Exemple sur un octet 





Decimal 


Bin aire 


[2 














1 


1 








-12 


1 











1 


1 









Inconvenient : Pour realiser des operations entre nombres signes, il 
faut faire un traitement particulier du bit de signe. Le resultat final ne 
pouvant etre obtenu de fagon simple (addition ou soustraction des 
deux nombres). 
D'ou I'utilisation du complement a 2. 
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Representation par le complement a 1 



Le complement a 1 (note C1 ) est egalement appele complement 
logique, il consiste a inverser chaque bit (0 -> 1 et 1 -> 0) 



Representation par le complement a 2 



Le complement a 2 (note C2) est egalement appele complement vrai, 
il consiste a ajouter 1 en binaire au complement a 1 . 

• L'entier positif est represents en binaire naturel. 

• L'entier negatif est represents par le complement a 2 de son 
oppose. 



Decimal 


Binaire 


12 





1) 


1) 





1 


1 


(i 


(i 


CI 


1 


1 


1 


I 








i 


i 


+ 1 
















i 


-12 


1 


1 


1 


I 


(1 


i 


i.i 


il 
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Exemple 



Une soustraction a- b devient une addition a + (-£>). (-b) etant le 
complement a 2 de b 



Decimal 


Bin .silt 


17 





ii 


(1 


I 











I 


-12 


1 


I 


I 


1 





I 










(1 








a 





1 





1 





Decimal 


Bin aire 


5 

















I 





1 


-12 


1 


1 


1 


1 


(1 


1 










1 


I 


1 


1 


I 


a 





1 



Si le bit de poids fort est 0, le resultat est positif, et si le bit de poids fort 
est 1 , le resultat est negatif Pour connaTtre la valeur absolue du 
resultat negatif, il suffit de faire le complement a 2 : 







1 


1 


[ 


1 


1 








l 


Cl 


(1 


(1 





(1 


(1 


1 




<) 


+1 
















1 




(1 


u 





(J 


u 


1 


1 


[ 



En effet |5 - 1 2| = (0000 0001 1 1 ) 2 = (7) 10 
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Les limites des nombres 



Les nombres sont codes de fagon fixe, ce qui fait qu'ils ont une limite 
Nee au nombre de bis qui les represented : 



Nombres de hils 


+ £rand mjjnbre posilil 


+ pelil nambre iiegattf 


8 


0111 1111 -»+I27 


1000 0000 -» -128 


16 


0111 1111 1111 1111 

-» 32767 


1000 0000 0000 0000 
-»- 32768 


32 


4 294 967 295 


. 4 294 967 296 



En synthese, si le nombre de bits est n, les valeurs vont de -2 n a 
2"-1 
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On se donne un entier b > 2 appele base de numeration. On choisit 
aussi un entier p > 2 appele precision ou nombre de chiffres 
significatif. On se donne aussi deux entiers e max > 2 et e mm < -2. Un 
nombre flottant normalise est alors un nombre de la forme 



x = (-1) s x m x b e 

ou s g {0, 1 } et (-1 ) s est le signe de x. m est appelee La mantisse, 
elle est ecrite sous la forme d'un nombre avec virgule fixe et possedant 

un nombre maximum de p chiffres significatifs 

p 



m 



0.d 1 d 2 ...d p 



E 

k=-\ 



d k b~ 



avec 1 < d-\ < b - 1 (mantisse normalisee) et < d k < b 
e, appele exposant , verifie e mm < e < e max . 



1 . L'entier 



On verifie que ^ < m < 1 



b-Pet 
A = fo e """- 1 < |x| < (j, = (1 - b~ p )b emax . L'ensemble des flottants 
normalises est note F(b,p, e m/n , e max ) 
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Par exemple, prenons b = 10, p = 5 et e max = -e mm = 100. 
Le rationnel 0.0000000000000000000001 23 est dans 
F(1 0,5, -100,1 00) ets'ecrit 

x = (-1)° x 1.2300 x 10" 22 

. Notons que n'est pas un entier flottant normalise. 
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On pose e = fo 1_p et on verifie sans peine le lemme suivant. 

Lemme 1 Soit x > un entier flottant normalise et y le suivant (le plus 
petit entier flottant normalise plus grand que x) s'il existe. Mors y — x 

verifie 

elxl 

-^ < y - x < ex 
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Une fois choisis b, p, e mm et e max on se donne une application 
d'arrondi 

4> : R -> F(b, p, e m/n , e max ) U{01/EHF/-CW, UNDERFLOW} 

jouissant des proprietes suivantes : 
» 4>{x) = OVERFLOW si et seulement si |x| > n ; 

• 0(x) = UNDERFLOW si et seulement si |x| < A ; 

• (/> est croissante sur [A, fi\ et sur [-//, -A] ; 

» La restriction de p/?/ a F(b,p, e mm , e max ) est I'identite. 
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Le fait d'utiliser un nombre limite de bits pour representer un nombre 
reel a des consequences importantes : 

• Cette representation introduit une erreur (troncature ou arrondi) 
qui peut avoir un impact important sur la precision des resultats. 

9 Quelque soit le nombre de bits utilises, il existe un plus petit et un 
plus grand nombre (positif et negatif) representables . II existe 
done un intervalle fini hors duquel on a un debordement (overflow) 
ou un sous-depassement (underflow). Dans ce cas les operations 
arithmetique n'ont plus de sens. 

9 A I'interieur de cet intervalle fini, seul un nombre fini de nombres 
sont representables exactement. 
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La representation en virgule flottante induit une erreur relative qui 
depend du nombre de bits de la mantisse, de I'utilisation de la 
troncature ou de I'arrondi, ainsi que du nombre x a representer. 



Definition 



La precision machine est la plus grande erreur relative commise en 
representant un nombre reel sur ordinateur : 



precision machine = maximum 



Ax 



,1-N 



En utilisant la troncature, on a : e m = b 1 

En utilisant I'arrondi, ona:e = e m /2 = b A ~ N jl. 



Remarque : En realite la precision machine est au maximum egale a 
e m ou e mais dans la pratique on confond la precision avec cette borne. 
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La convention IEEE-754 



Norme visant a standardiser la representation des nombres sur les 
ordinateurs. En particulier elle impose le nombre de bits pour la 
mantisse, et I'exposant pour les nombres reels a 32 bits (simple 
precision) et les reels 64 bits (double precision). Fait en sorte que Ton 
peut determiner la precision machine ainsi que le plus grand et plus 
petit reels (simple et double precision) representable independemment 
de I'ordinateur . 





simple precision 


double precision 


£m 


0.119x 10" b 


0.222 x 10" lb 


plus petit reel (normalisee) 


1.2 x 10" 3a 


2.2 x 10" yua 


plus petit reel (non-normalisee) 


1.4 x 10~ 4b 


4.9 x 10" 324 


plus grand reel 


3.4 x 10 JS 


1.8 x 10 aus 
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Decalage de I'exposant 



L'exposant etant represente par un nombre signe (complement a 2), la 
comparaison entre les nombres flottants devient un peu plus difficile. 
Pour remedier a ce probleme, l'exposant est decale, afin de le stocker 
sous forme d'un nombre non signe. Ce decalage est de 2 e_1 - 1 (e 
represente le nombre de bits de l'exposant) ; il s'agit done d'une valeur 
constante une fois que le nombre de bits e est fixe : 

valeur = signe x 1 , mantisse x 2^ exposant - decala9 ^ 
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Format simple precision (32 bits) 



Un nombre flottant simple precision est stocke dans un mot de 32 bit : 
1 bit de signe, 8 bits pour I'exposant et 23 pour la mantisse. Lexposant 
est done decale de 2 8_1 - 1 =127 dans ce cas. Lexposant -127 (qui 
est decale vers la valeur 0) est reserve pour zero et les nombres 
denormalises, tandis que I'exposant 128 (decale vers 255) est reserve 
pour coder les infinis et les NaNs. 



signe exposant 


mantisse 




1 1 1 1 1 1 1 1 1 II 1 1 1 


1 1 1 1 1 1 1 1 1 1 1 1 1 


Mill 


31 23 
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Exemplel 



Pour 01 1 1 1 1 00 01 000000000000000000000, 1'exposant est 
124- 127 = -3 et la partie significative est 1,01 soit 1,25 en decimal 
(1x2° + 0x2 _1 + 1 x2~ 2 ) ; le nombre represents est done +1 , 25x2~ 3 
soit +0,15625. 
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Exemple2 



Codons le nombre -1 18,625 en utilisant IEEE 754. 

O C'est un nombre negatif, le signe est done "1". 

Q Nous ecrivons le nombre (sans le signe) en binaire. Nous 
obtenons 1110110,101. 

O Nous decalons la virgule vers la gauche, de fagon a ne laisser 
qu'un 1 sursa gauche : 1110110,101 (bin) = 1,110110101 (bin) x 
2 6 . C'est un nombre flottant normalise : la mantisse est la partie a 
droite de la virgule, remplie de vers la droite pour obtenir 23 bits. 
Cela donne 110 1101 01 00 0000 0000 0000 (on omet le 1 avant 
la virgule, qui est implicite). 

Q L'exposant est egal a 6, et nous devons le convertir en binaire et le 
decaler. Pour le format 32-bit IEEE 754, le decalage est 
2 8 " 1 - 1 =127. Done 6 + 127 = 133 (dec) = 1000 0101 (bin). 

-1 1 8,625 (dec) = 1 1 00 001 1 1 1 1 1 01 01 00 0000 0000 0000 (bin) 
= C2ED4000 (hexa) 
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Format double precision (64 bits) 



Le format double precision est identique au simple precision, mis a 
part le fait que les champs sont plus grands. En effet, il possede 52 
bits de mantisse, et 1 1 bits d'exposant. La mantisse est tres elargie, 
alors que I'exposant est peu elargi. Ceci est du au fait que, selon les 
createurs du standard, la precision est plus importante que 
I'amplitude. Les NaNs et les infinis sont represents en mettant tous 
les bits de I'exposant a 1 (2047). Pour les nombres normalises, le 
decalage de I'exposant est +1023. 



signe exposant 


mantisse 




llllllllllllllllllllllllllll 


llllllllllllllllllllll 


II 


63 52 
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Arithmetique flottante Modele de I'arithmetique flottantt 



de la maniere suivante : 



Attention 



Les operations elementaires sont effectives en arithmetique flottante 

fl(fl(x) + fl(y)) 
fl( fl(x) - fl(y) ) 
fl( fl(x) - fl(y) ) 
fl( fl(x) x fl(y) ) 
associativite, distributivite, etc 

ne sont plus valides (pas toujours) en arithmetique flottante I 



x + y — s 
x-y — s 
x + y — s 
x x y — ) 
plusieurs proprietes de I'arithmetique 
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Arithmetique flottante Associativite 



Par exemple : supposons que les reels soient calcules avec n 
chiffres significatifs et arrondis a la decimale la plus proche. 
Soient x = 8,22, y = 0,00317, z = 0,00432 

[x + y) + 2 + x + (y + z) 
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Arithmetique flottante Distributivlte 



Encore avec n =3 



xx(y + z)^xxy + xxz 



122 x (333 + 695) = /7(0, 122 10 3 x fl(0, 333 10 3 + 0,695 10 3 )) 
= fl(0,122 10 3 x fl{ 1,028 10 3 )) 
= f/( 0,122 10 3 x fl(0,103 10 4 )) 
= fl( 0,01 2566 10 7 )) 
= 0,126 10 6 
(122x 333) + (122x 695) = fl{ fl{0, 122 10 3 x 0,333 10 3 ) 

+ fl{ 0,122 10 3 x 0,695 10 3 )) 
= fl{ fl( 0, 040626 1 6 + fl( 0, 08479 1 6 
= f/(0,406 10 5 + 0,848 10 5 ) 
= fl{ 1 , 254 1 5 ) 
= 0, 125 10 6 
I ya done une difference entre les deux resultats. 



) 
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Arithmetique flottante Attention a I'exposant ! 



II faut etre prudent avec I'addition et la soustraction. Lorsque les 
exposants ne sont pas les memes il est necessaire de decaler la 
mantisse avant d'effectuer I'addition ou la soustraction. 
Pour n = 4 



0,4035 10 6 + 0, 1978 10 4 = 



et 



0, 56789 10 4 - 0,1 234321 10 fc 



fl{ 0, 4035 1 6 + 0,1 978 10 4 ) 
fl( 0, 4035 1 6 + 0, 001 978 1 6 ) 
fl( 0, 405478 10 6 ) 
0,4055 10 6 

= /7( 0,5679 10 4 - 0,1 234 1 6 ) 

= fl( 0, 005679 1 6 - 0,1 234 10 6 ) 

= #(-0,11772 10 6 ) 

= -0,1177 10 6 
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Arithmetique flottante Phenomene de cancellation 



II existe d'autre part, un certain nombre d'operations risquees. 
Soustraire deux nombres presque identiques : 



^TOOT-v/TOOO = 0, 8367 10 2 -0, 8367 10 2 
= 0,000 10° si a? = 4 



V700T-V7000 = 0, 83672 10 2 -0, 83666 10 2 
= 0,6 10 -2 sin = 5 



Dans ce cas-ci on peut remedier a cette difficulty en evitant la 
soustraction des racines : 



\ r x- W 



*-y 

Vx + W 



et on trouve 0, 5977 1 2 au lieu de pour n = 4. 
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Arithmetique flottante Conclusion 



L'ordre dans lequel on fait les operations et le nombre d'operations ont 
un impact important sur la precision du resultats. Ainsi on devrait 
"toujours" : 

9 eviter les operations avec des nombres tres differents en ordre de 
grandeurs, 

9 eviter si possibles les soustractions avec des nombre relativement 
proche, 

» on devrait faire les sommes en ordre decroissant. 
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